THE 11TH ICAME CONFERENCE
Knut Hofland
Den 11. ICAME konferansen ble arrangert i Berlin fra 10.-13. juni 1990. Det var
65 deltakere fra 14 land og 3 kontinenter, bl.a. 5 fra Norge, og som et
resultat av tilnærmingen mellom de to tyske stater, var flere av
deltakerne fra daværende Øst-Tyskland.
Det ble holdt 35 foredrag og disse var gruppert i 11 sesjoner som dreide seg om
historiske studier, forskjellige beskrivelser av engelsk språk,
korpusforskning, fremdriftsrapporter om korpusstudier og variasjoner av engelsk
språk. I tillegg ble det gitt noen få demonstrasjoner av aktuell
programvare.
I det følgende vil noen av foredragene bli omtalt. Det er for
øvrig planlagt en bok som skal inneholde en del av foredragene.
Merja Kytö fra universitetet i Helsinki rapporterte om status i
korpusarbeidet der. I dialektkorpuset er siste dialekt til behandling og
når denne er ferdig, vil alle de viktigste dialektene være dekket
og korpuset kommet opp i 500.000 løpende ord. Tekstene blir tagget med
programmet CLAWS fra Lancaster, og det er også gjort forsøk med
bruk av MacRecorder og HyperCard på Macintosh for samtidig tilgang til
lyd og transkribert tekst. Et problem er lagerplassen som digitalisert lyd
krever. Det diakroniske korpuset er klar til distribusjon i løpet av
1990. Matti Rissanen viste eksempler på noen analyser som kan
gjøres med utgangspunkt i korpuset, som i dag finnes i utagget utgave.
Ian Lancashire fra University of Toronto gav en oversikt over hvorledes
tekstsøkeprogrammet TACT blir brukt i litterære studier av
Chaucer, Shakespeare og Milton. Ved hjelp av skriptmuligheter i denne pakken
kan læreren lage en styrt gjennomgang av teksten basert på bruk av
ordliste, konkordans, fordeling av tekst/ord, kollokasjoner,
søkemønstre og ordkombinasjoner. Etter en første
presentasjon kan studentene selv utforske tekstene. Utviklingsgruppen i Toronto
vil i løpet av de nærmeste årene viderutvikle TACT bl.a. med
hensyn til tekststatistikk. TACT blir distribuert av NAVFs edb-senter for
humanistisk forskning til selvkost.
Geoffrey Barnbrook fra University of Birmingham presenterte et arbeid
med analyse av rettskrivingsvarianter i en middelengelsk tekst. Han hadde
skrevet egne programmer i Turbo Pascal og tok utgangspunkt i ca. 18.000 ordpar
der det kun var én bokstavs forskjell og der disse ordene kunne
være mulige varianter av samme ord. Han klassifiserte forskjellene i 7
hovedkategorier og studerte videre de 10 mest frekvente bokstavparene innen
disse hovedkategoriene. Et program som skulle generere alle
rettskrivingsvarianter av et ord ble testet på 300 tilfeldige ord fra
teksten. 98 forslag ble funnet i teksten og av disse var 78 korrekt.
Programmene kan tenkes brukt til reorganisering av ordlister, konkordans til et
ord der alle varianter blir generert automatisk, og i forbindelse med
lemmatisering av middelengelske tekster der en vil måtte normalisere
teksten før en kan foreta en lemmatisering.
Pieter de Haan fra universitetet i Nijmegen har gjort
undersøkelser av hvorledes størrelsen på deltekstene i et
korpus påvirker resultatene. I Brown- og LOB-korpusene er hver deltekst
på 2000 ord, og dette synes tilstrekkelig for analyse av leksikalske
former. Dersom en studerer fraser eller setninger, synes det som om en må
opp i deltekster på 20.000 ord for å få tilstrekkelig med
eksempler.
Lou Burnard fra University of Oxford orienterte om arbeidet innen
komitéene som kalles Text Encoding Initiative (TEI). Dette arbeidet ble
startet i 1987 og det har vært komitéer for tekstdokumentasjon,
metaspråk, tekstrepresentasjon og teksttolking. I juni 1990 kom de
første anbefalinger ut fra komitéene, en 350 siders bok, TEI
Guidelines. Høsten 1990 blir det arrangert seminar i Europa og
Nord-Amerika som presenterer disse anbefalingene. I løpet av de neste to
år vil disse forslagene bli diskutert og forskere og andre er oppfordret
til å komme med kommentarer før den endelige publisering i 1992
under ALLC konferansen i Oxford. Lou Burnard ga også en oversikt over
Standard Generalized Markup Language (SGML), som er en ISO standard og som er
metaspråket som er brukt i TEI. Til slutt viste han et eksempel på
hvordan TEI Guidelines kan brukes på en autentisk tekst. (Se også
Burnards artikkel i dette nr. av HD).
Jeremy Clear fra Oxford University Press (OUP) gav noen opplysninger om
det planlagte Oxford korpus eller British National Corpus som det offisielle
navnet trolig blir. OUP har satt sammen et konsortium der bl.a. forlaget
Longman, universitetet i Lancaster, Oxford University Computing Service og
British Library er med. Målet er å lage et korpus på 100
millioner ord i løpet av 3 år og gjøre dette tilgjengelig
med et minimum av restriksjoner. Finansieringen er i løpet av
høsten blitt ordnet og prosjektet starter 1.1.1991. I siste del av
foredraget tok Clear opp noen generelle problemstillinger i forbindelse med
tilrettelegging av et korpus, spesielt problemer med utvalg.
Charles Bush fra Brigham Young University presenterte en forsmak
på versjon 5 av WordCruncher. Denne utgaven er helt nyskrevet og
kjører under Windows 3.0. Det er mulig å arbeide med flere tekster
samtidig. Gamle tekster må reindekseres, men indekseringen går
hurtigere enn i versjon 4.3. En tekst kan nå ha 10 uavhengige
referansenivåer. Versjon 5 har innebyggete muligheter for å
representere hypertekstlige forhold ved hjelp av forskjellige typer lenker,
både statiske og dynamiske, også til grafikk. Det er mulig å
kalle opp andre program, som f.eks. drivere for videospiller. Programmet gir
støtte for SGML. Programmet vil være tilgjengelig i juni 1991 og
det vil da også komme en utgave for Macintosh. Senere vil det komme en
versjon for OS/2.
Den uformelle faglige kontakten var som ved andre ICAME konferanser et viktig
element. De fleste av deltakerne har deltatt i flere av de tidligere
konferansene og har på denne måten blitt godt kjent. Arrangementer
som rundtur i Berlin og båttur til Potzdam gjorde det mulig å
videreutvikle disse kontaktene. Arrangør var Gerhard Leitner ved
Freie Universität Berlin. Bortsett fra noen praktiske problemer, ble
konferansen avviklet på en tilfredsstillende måte. Neste konferanse
blir arrangert i Leeds 8.-11. mai 1991.